孟加拉语键入大多是使用英语键盘进行的,并且由于存在化合物和类似明显的字母,因此可能是错误的。拼写错误的单词的拼写校正需要了解单词键入模式以及用法一词的上下文。我们提出了一个专业的BERT模型,Bspell针对词校正句子级别。Bspell包含一个可训练的CNN子模型,名为Semanticnet以及专门的辅助损失。这使得Bspell在存在拼写错误的情况下专门研究高度易转的孟加拉词汇。我们进一步提出了将单词级别和字符水平掩蔽组合的混合预读方案。利用这种预审前的方案,BSPELL在现实生活中的孟加拉语拼写校正验证设置中实现了91.5%的准确性。对两个孟加拉语和一个印地语拼写校正数据集进行了详细比较,显示了拟议的Bspell优于现有咒语检查器的优势。
translated by 谷歌翻译